查看原文
其他

QB期刊 | GTEx项目的统计实践: 从单组织到多组织

QB期刊 2022-10-01

     全基因组关联研究(GWAS)已经在基因组上发现了许多遗传风险突变。后GWAS时代的关键任务之一是刻画和解释这些遗传风险突变。在细胞中, 一些生物过程(比如DNA甲基化、组蛋白修饰、转录因子结合、可变剪接和基因表达等)可能被基因突变影响, 可以看做是遗传变异和表型差异之间的桥梁。GTEx项目收集了近千个已故个体的多种组织, 测量了其中的基因组和转录组, 重点研究基因型和转录状态之间的联系。

       近日, 由新加坡杜克-新加坡国立大学医学院的定量医学中心Jin Liu教授课题组回顾了GTEx项目中使用的方法和取得的成果, 并为下游分析提供了一些建议。相关研究结果“The statistical practice of the GTEx Project: from single to multiple tissues”(点击文末“阅读原文”下载PDF全文)发表在Quantitative Biology期刊上。

全文概要

GTEx项目从众多已故个体的多种组织中测量了基因组和转录组信息, 以研究基因型和转录状态之间的联系。转录状态是多个现象的统称, 包括异构体表达、等位基因特异的表达、剪接模式等等。本文用转录数量性状位点(transcriptome quantitative trait loci, transcriptome QTL)来代指这些联系, 比如能解释mRNA表达强度变化的基因位点被称为表达数量性状位点(expression quantitative trait loci, eQTLs)。研究表明eQTLs是组织特异的, GTEx项目开发了一些寻找多组织eQTLs的方法。其它类型的转录QTL也是GTEx项目关心的, 如等位基因特异表达(allele specific expression, ASE)和剪接数量性状位点(splicing quantitative trait locus, sQTL)等。对eQTL的理解能帮助人们理解基因突变与复杂性状之间的关系, 全转录组关联研究(TWASs)的许多方法利用eQTL来建模表型的遗传效应。

       本文首先研究了基因表达性状背后的遗传结构, 然后回顾了近期的单组织和多组织eQTL方法, 并介绍了共表达网络的分析方法。为了更好地说明相关研究的应用价值, 本文还简单回顾了GWASs中直接或间接利用了QTL信息的方法。

       遗传结构方面, 作者首先介绍了两种不同的eQTL: 顺式eQTL(cis-eQTL)和反式eQTL(trans-eQTL)——取决于突变位点与目标基因之间的距离, 距离在1Mb内的称为顺式, 大于1Mb的称为反式。由于样本量的原因, eQTL方法一般研究的都是cis-eSNPs对基因表达量的影响。统计表明cis-eQTL会富集在基因启动子附近(图1)。

图1: eSNP与启动子的距离分布


       在遗传结构的另一部分, 作者讨论了稀疏结构和多基因结构两种调控模式。多个eSNP对同一性状产生影响, 而且每个eSNP的效果不大的情况称为多基因结构;少数突变对性状有较大影响的模式称为稀疏结构。作者通过BSLMM和LMM两种建模方式得出结论, 稀疏模式比多基因模式更为普遍(图2)。

图2: GTEx数据中cis-eQTL的稀疏结构


       接下来作者介绍了寻找eQTLs的方法。传统的eQTL方法在性状和突变之间建立大量线性回归模型, 这方面的方法有PANAMA, WASP, Matrix eQTL, FastQTL等, 其中Matrix eQTL被认为是FastQTL之前的金标准。作者简单介绍了FastQTL的流程(图3)。

图3: FastQTL的流程


       由于GTEx项目收集了来自多个组织的样本, 寻找组织特异性eQTL的方法之一是在每个组织的样本上独立寻找eQTL, 再比较不同组之间的显著结果之间的差异。但是这种方法不能完全利用多组织之间的共享信息,包括相同个体信息和共享细胞类型信息等, 导致损失了统计性能。因此许多方法同时寻找多组织共享和组织特异的eQTL, 比如MetaTissue, MT-eQTL, mash等, 作者对这些方法的原理进行了简要介绍(表1)。

表1: 单组织和多组织的eQTL方法


      共表达网络的构建有助于人们理解基因间的调控关系和trans-eSNP对基因的调控通路。作者介绍了几个常用的共表达网络分析方法, 从常用的WGCNA到使用高斯图模型为基因表达建模的GeneNet和graphical Lasso。作者用WGCNA和graphical Lasso在GTEx的骨骼肌组织数据上重建了共表达网络, 以直观展示它们的区别(图4)。

图4: 共表达网络

 

     eQTL不仅揭示了基因调控关系, 而且对下游分析有很大帮助, 作者介绍了一些直接或间接利用基因调控信息的研究。一些TWASs的方法利用单一组织中发现的SNP-基因关联来推断重要的基因-性状关联,例如PrediXcan、TWAS和CoMM, 以及它们的扩展PRIDXcan和CoMM-S2等。另一种间接利用eQTL信息的方法是根据基因调控作用对遗传变异进行加权, 例如把更多的权重放在可能对基因产物有功能影响的遗传变异上, 如PAINTOR, CAVIAR, fgwas, GPA, LSMM等方法。





Quantitative Biology期刊介绍

    Quantitative Biology (QB)期刊是由清华大学、北京大学、高教出版社联合创办的全英文学术期刊。QB主要刊登生物信息学、计算生物学、系统生物学、理论生物学和合成生物学的最新研究成果和前沿进展,并为生命科学与计算机、数学、物理等交叉研究领域打造一个学术水平高、可读性强、具有全球影响力的交叉学科期刊品牌。 

       为了促进本领域的学术交流,欢迎大家扫描下面二维码进入《定量生物学》期刊交流群。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存